Python构建代理池，突破IP的封锁爬取海量数据（送项目源码）

是沐沐呀 GOGO数据 2022-08-02

收录于合集 #爬虫实战 29个

在昨天的文章中给大家分享了日常我在爬虫过程中使用的一些技巧。

其中代理ip就是其中技巧之一，那么我们如何快速获得ip呢，今天我就带大家使用爬虫来获取免费的ip。

1. 打开网站首页，可以看到总共有十页数据，总共100条ip记录。咱们的目的很简单，就是要这100条ip和对应端口号。完了我们再去筛选那些ip是可用的。

http://www.ip3366.net/?stype=1&page=1

2. 我们打开浏览器模式模式分析页面看到这些ip信息都位于tr标签内，所以我么可以使用xpath来获取这些信息。

#获取当前页面10个ip数据
ips = selector.xpath('//*[@id="list"]/table/tbody/tr')
print(len(ips))
'''
10
'''

3. 获取到当前页面所有ip信息之后我们就可以使用for循环获取tr标签内部具体的ip和端口号。

# 获取端口和IP
for ip in ips:
    ip_num = ip.xpath('td[1]/text()').get()    # ip
    port_num = ip.xpath('td[2]/text()').get()  # port
    print(ip_num, port_num)
'''
49.70.151.180 3256
49.87.44.221 9999
42.177.142.239 9999
42.177.141.141 9999
42.176.134.43 9999
42.176.134.212 9999
49.71.142.114 9999
49.87.221.46 9999
49.87.221.120 9999
49.87.221.61 9999
'''

4. 接下来就使用for循环获取十个页面的100条数据。

    for page in range(1, 10+1):
        print(f'-------正在爬取第{page}页数据-------')
        url = f'http://www.ip3366.net/?stype=1&page={page}'

5. 测试可用性，现在所有的ip都已经获取到了，能不能用还是未知数，所以我们试着有这些ip登陆一下百度页面，检测其可用性。

    for ip in ip_list:
        try:
            response = requests.get(url='https://www.baidu.com', proxies=ip, timeout=2)
            if response.status_code == 200:
                use_proxy.append(ip)
        except Exception as e:
            print(f'当前为第{count}个代理ip:', ip, '请求超时, 检测不合格!!!')
        else:
            print(f'当前为第{count}个代理ip:', ip, '检测通过')

检测结果如下：

测了两百个，才找到两个能用的

因为这些代理每小时都在更新，所以没事多跑两遍程序，总会获取到你想的ip的。

源码回复'爬ip'即可获取

回复关键字“简明手册”，立即获取

入门必备书籍《简明python教程》电子版

回复关键字“黑马爬虫教程”，立即获取

2021最新爬虫学习教程

回复关键字“最新Python面试题”，立即获取

2021最新Python面试题一套

回复关键字“字节刷题手册”，立即获取

入门必备书籍2021字节面试刷题手册

回复关键字“pandas”，立即获取

《pandas中文官方手册》

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

娱乐圈明星唱阿哲“事非人愿”，自爆和阿哲交情！@姗姗，阿哲首发新歌送前妻！二辰午夜陪播！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

Python构建代理池，突破IP的封锁爬取海量数据（送项目源码）

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

娱乐圈明星唱阿哲“事非人愿”，自爆和阿哲交情！@姗姗，阿哲首发新歌送前妻！二辰午夜陪播！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

生成图片，分享到微信朋友圈

Python构建代理池，突破IP的封锁爬取海量数据（送项目源码）

您可能也对以下帖子感兴趣